摘 要 : 网络 入 侵 检测 与 
外 核 处 理 器 在 数据 包 处 
Snort 为 基础 ， 


的 激增 和 六 
测 与 防御 系统 
侵 检测 与 防御 系统 软件 


传统 的 Snort 划分 为 2 个 阶段 ， 通 
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并 行 入 侵 检测 系统 


防御 系统 在 当前 的 IP 网 络 安全 领域 中 扮演 着 重要 的 角色 , 互联 网 流量 
里 上 存在 的 瓶 贷 , 使 得 传统 的 运行 于 单 核 上 的 单线 程 网 络 入 侵 检 
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、 


同时 , 通过 程序 设计 ,pSnort 避免 了 
在 Intel Quad-core Xeon 通用 平台 上 可 以 获得 超过 1Gbps f 
pSnort 最 高 能 获得 147% 的 性 能 提 姑 
关键 词 : 多 核 Snort 软 流水 并 行 架 构 


已 经 远 远 不 外 


网 


络 发 


过 将 其 中 最 耗 时 的 处 理 阶段 


展 的 需求 。 为 了 解决 这 个 问题 , 本 文 以 主流 单线 程 网 络 入 


设计 了 一 个 基于 软件 流水 的 并 行 入 侵 检 测 系统 PSnort， 将 


于 并 行 化 而 带 来 的 严重 的 同步 / 互 斥 问题 。 


以 及 2.5 倍加 速 比 。 


1 引言 
随 着 互联 网 的 发 展 与 广泛 应 用 ， 缓 冲 区 溢出 
网 络 攻击 层 出 


拒绝 服务 攻击 。 虽 然 主流 的 操作 系统 、 应 用 软件 
更 新 速 度 远 远 赶不上 着 


漏洞 ， 但 上 


攻击 、 拒 绝 服务 攻击 、 


Intrusion Detection System，NIDS) 在 网 络 安全 领域 显得 越 来 越 重要 。 


网 络 入 侵 检测 系统 是 运行 在 网 络 边 缘 月 
Snortm 作为 主流 网 络 入 侵 检测 系统 之 


测 方式 ， 


\ 双 


量 的 协议 信息 、 端 


通过 定期 更 新 异常 特 
例如 Bro 等 基本 上 采用 相 类 


以 


行 化 ， 以 达到 提升 性 


4 包 处 理 速度 。 相 对 


日 于 检测 异常 流量 的 网 络 安全 设备 。 开 源 软 件 


能 的 目的 。 
经 过 试验 , pSnort 
于 传统 的 Snort， 


后 门 漏洞 攻击 等 各 种 


不 穷 。 攻 击 者 利用 各 种 后 门 软 件 获取 目标 系统 的 管理 员 权限 ， 向 其 他 主机 发 动 
期 发 布 各 种 安全 补丁 来 修复 软件 中 存在 的 
洞 发 现 的 速度 ， 这 使 得 网 络 入侵 检 测 系 统 (Network 


， 运 行 于 通用 CPU 平台 上 ， 使 用 特征 选择 的 异常 检 


信息 和 可 疑 内 容 等 信息 ， 数 据 包 需 要 与 规则 集 进行 匹配 。 


情况 下 ， 


种 攻击 对 应 着 


的 测量 结 
最 高 不 到 500Mbps 


果 表 明 ， 在 单 


核 平 


4]. 


台 上 (2.0 GHz AMD Opteron 处 到 


征 数据 库 达到 维护 网 络 安全 的 目的 。 其 他 的 网 络 入 侵 检测 系统 ， 
的 结构 。 当 前 ，Snort 面临 以 下 三 方面 的 挑战 : 


在 Snort 系统 中 ， 寞 常 特征 数据 库 是 以 规则 的 形式 存储 的 。 这 些 规 则 刻画 了 异常 流 


一 般 


条 识别 规则 。 随 着 网 络 中 各 种 不 同 种 类 的 攻击 的 增长 ， 
Snort 规则 库 中 规则 的 数量 也 在 不 断 增加 。 这 使 得 Snort 的 检测 计算 负载 加 重 。 


实际 


EE 器)，Snort 的 吞吐 量 


攻击 者 利用 目标 操作 系统 TCP/IP 协议 栈 的 特点 , 将 攻击 代码 以 分 片 或 者 重合 的 方式 


隐藏 在 不 同 包 之 间 ， 以 期 望 绕 过 网 络 入 侵 检 测 系 统 的 检测 。 因 


的 网 络 威胁 ，Snort 提供 了 IP 分 片 重组 、 流 重组 等 复杂 功能 还 原 网 络 中 的 数据 流 。 


这 些 功 能 所 引起 的 计算 与 存储 开销 也 是 不 小 的 ; 


已 片 性 能 提高 大 臻 遵循 摩尔 定律 ， 即 每 18 个 月 性 能 提高 


此 为 了 找 出 这 些 潜在 


倍 。 
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而 吉尔 德 定律 认为 ， 


pSnort: 基于 多 核 处 理 器 的 并 行 入 侵 检测 系统 
在 未 来 25 年 内 ， 主 干 网 的 带宽 将 每 6 个 月 增加 一 倍 。 按 照 吉尔 德 定律 的 描述 ， 带 
宽 的 增长 指数 超过 摩尔 定律 所 预测 的 CPU 处 理 速度 增长 指数 的 3 倍 。 因此， 以 传统 
Snort 为 代表 的 单线 程 网 络 入 侵 检测 系统 正面 临 着 严重 的 性 能 难题 。 


多 核 处 理 器 平台 的 出 现 为 基于 通用 CPU 平台 实现 的 高 速 网 络 入 侵 检测 系统 带 来 了 新 的 
机 遇 。 但 传统 网 络 入 侵 检 测 系 统 是 针对 单 核 平台 开发 的 ，Snort 以 单线 程 模 式 运 行 ，Bro 的 
数据 分 析 部 分 也 是 单线 程 模式 运行 ， 它 们 不 能 充分 利用 多 核 处 理 器 的 特性 提升 性 能 。 目 前 ， 
多 线程 网 络 入 侵 检 测 系统 正 逐 渐 成 为 研究 的 热点 。 例 如 Snort 开发 小 组 正在 开发 新 一 代 Snort 
sp 3.0， 以 支持 多 线程 数据 包 处 理 铝 ;Bro 的 主要 开发 人 员 也 宣称 多 线程 数据 包 处 理 将 是 他 们 
下 一 步 工 作 的 重点 名。 然而 网 络 数据 包 处 理 程序 是 一 种 有 状态 应 用 (Stateful Applications) 3， 
其 各 模块 间 耦 合 比较 紧密 ， 数 据 依 赖 程度 较 高 ， 并 行 化 难度 较 大 。 以 Snort 为 例 ，Snort 数据 
包 处 理 虽 然 是 逐 包 检 测 的 , 但 Snort 内 部 由 于 采用 了 IP 分 片 重组 和 流 重 组 机 制 , 会 联合 处 理 
属于 同一 个 IP 分 片 、 同 一 个 流 的 多 个 数据 包 ， 还 原 业 务 流 以 便 进行 深度 数据 包 检 测 〈DPL， 
Deep Packet Inspection )。 在 检测 数据 包 时 ，Snort 必须 依据 业务 流 的 上 一 个 包 所 带 来 的 状态 
改变 ， 这 使 得 基于 包 的 并 行 策 略 非常 难以 应 用 于 并 行 化 Snort。 


针对 这 一 现状 ， 本 文 实验 分 析 Snort 各 个 检测 过 程 的 处 理 时 间 ， 在 此 基础 上 ， 提 出 了 一 
种 采用 流 并 行 机 制 与 软件 流水 的 并 行 入 侵 检测 系统 pSnort。pSnort 着 眼 于 并 行 化 Snort 处 理 
流程 中 最 耗 时 的 部 分 以 最 大 限度 利用 多 核 平台 的 计算 资源 , 同时 充分 考虑 到 多 线程 可 能 带 来 
的 同步 / 互 斥 开销 ， 从 架构 设计 上 将 其 予以 消除 。 测 试 实验 表明 ，pSnort 可 以 获得 1Gbps 的 
处 理 速度 ， 相 对 于 原始 Snort 可 以 获得 最 高 147% 的 性 能 提升 ， 以 及 最 高 约 2.8 倍 的 加 速 比 。 


论文 的 其 他 章节 安排 如 下 : 第 二 章 主要 介绍 了 并 行 网 络 入 侵 检测 系统 领域 的 一 些 相 关 工 
作 ， 包 括 各 种 不 同 的 并 行 执 行 方法 介绍 等 ， 第 三 章 根据 Snort 各 个 阶段 的 CPU 处 理 时 间 ， 
提出 了 并 行 架 构 的 pSnort 入 侵 检测 系统 ， 第 四 章 描述 了 在 pSnort 具体 实现 的 相关 技术 ;第 
五 章 给 出 pSnort 的 实验 测试 结果 和 性 能 分 析 ， 第 六 章 是 结论 与 下 一 步 工作 的 展望 。 


2 ”相关 工作 


传统 网 络 入 侵 检测 系统 针对 单 核 平台 进行 了 充分 的 优化 。 然 而 近年 来 ， 由 于 CPU 设计 
= 逻辑 复杂 ， 制 造 工 艺 与 功 耗 受 限 外 性 能 不 再 能 维持 指数 增长 ， 业 界 开始 转向 多 核 平台 以 谋 
© 求 性 能 提升 。 这 导致 了 网 络 入 侵 检 测 系统 并 行 化 方法 的 研究 热潮 。 各 种 针对 当前 多 核 平 台 的 
并 行 执行 模型 纷纷 提出 。 在 这 些 模型 中 ， 论 文 [3] 总 结 了 两 种 最 基本 的 多 线程 执行 模型 : 
RTC(Run-To-Complete) 和 软件 流水 线 (Software Pipeline, SPL)。 


RIC 模型 ， 顾名思义 ， 即 简单 的 复制 多 个 执行 单元 ， 通 过 分 配给 不 同 的 执行 单元 不 同 
的 任务 ， 以 达到 性 能 提升 的 目的 。 每 个 线程 都 完成 同样 的 功能 : 解码 、 分 片 重组 、 流 查找 和 
重组 、 规 则 匹配 等 步 又 。 每 个 核 上 绑 定 一 个 线程 ， 这 样 核 的 数目 增加 就 可 以 提升 数据 包 处 理 
的 性 能 。 


软件 流水 线 模型 将 目标 系统 拆 分 为 几 个 阶段 , 每 个 阶段 作为 一 个 单独 的 线程 在 一 个 核 上 
完成 。 不 同 的 线程 之 间 通 过 队列 或 者 缓冲 池 来 传递 消息 。 软 件 流水 线 模 型 借用 了 流水 线 的 ， 
想 ， 提 升 目 标 系统 的 吞吐 量 。 整 体 的 处 理 流程 在 不 同 的 核 上 分 阶段 完成 ， 一 个 核 只 完成 全 部 
处 理 流程 的 一 个 部 分 , 通过 缓冲 池 将 各 个 阶段 的 任务 衔接 起 来 。 软 件 流 水 线 模型 的 主要 缺点 
在 于 增 大 了 线程 间 通 信 的 开销 。 在 实际 工程 设计 中 ， 各 个 阶段 的 划分 需要 仔细 的 考量 ,以 免 


府 
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由 多 线程 


性 能 收益 。 


英特尔 在 技术 报告 ， 
对 完全 并 行 和 基于 流 分 发 的 两 种 3 
在 Dual-Core Intel Xeon 


验 显示 ， 


信息 技术 快报 


Information Technology Letter 


带 来 的 同步 / 互 斥 


哈 格 多 任 斯 (B. Haagdorens) 等 人 基于 软 流水 的 思想 ， 
并 对 这 些 架 构 的 性 能 ; 
逻辑 核 )，5 种 多 线程 架构 ， 
带 来 了 不 同 程度 的 性 能 下 降 
分 考虑 到 线程 间 同 步 的 开销 , 否则 这 些 开 销 所 带 来 的 性 能 损失 往往 会 抵消 ! 


人 


肖 给 最 终 的 性 


是 
口 


能 提升 带 来 严重 影响 。 
1 了 5 种 多 线程 Snort 架构 ， 


Vol.8 No.6 
Nov. 2010 


行 了 评估 。 研究 发 现在 双核 并 开启 
只 有 两 种 设计 带 来 了 1196~1696 的 人 


超 线程 


实验 平台 
:能 提升 


二。 该 而 


行 方 
LV 处 


连接 的 情况 


,Fr 


里 器 平台 上 , 在 数据 包 文 伯 
两 者 均 可 以 达到 540~560Mbps 的 吞吐 量 和 80% 左 夏 


率 的 


(相当 于 四 个 
其 会 


9 As 


3 种 设计 反而 


究 说 明 在 采用 软 流水 思想 对 Snort 进行 划分 时 ， 必 须 充 
于 多 线程 


二 
人 


来 的 


也 提出 了 利用 多 核 技 术 提高 Snort 性 能 的 方案 外 。 在 报告 中 ， 他 们 
案 进 行 了 吞吐 量 和 二 级 缓存 命 ， 


评估 。 他 们 的 实 


Vv 


F Ctrace ) 仅 包含 175 个 TCP 


的 缓存 命 ! 


率 ， 而 在 数 


据 包 文件 包含 25000 个 TCP 连接 时 ,基于 流 分 发 的 并 行 方案 可 获得 188Mbps 的 吞吐 量 和 709%6 


的 缓存 命中 


沪 


户 ， 


为 了 实现 更 高 速率 (超过 10Gbps) 的 网 络 入 侵 检 涡 
来 加 速 深度 数据 包 检 测 检测 的 方案 。 在 这 些 方案 中 ，TCAM- 由 
Prefix Matching) 的 文 持 成 为 一 种 主流 的 便 
等 人 将 入 侵 检 测 系统 字符 串 匹 配 划分 为 简单 模式 和 复杂 模式 两 大 类 ， 并 将 这 两 类 模式 都 在 
能 力 叫 。 成 正 石 〈 音 
10Gbps 的 处 理 能 力 00。 
嵌 效 率 不 高 等 缺陷 ， 而 且 也 无 法 满足 规则 日 益 增 


TCAM 上 实现 。 仿 真实 验 结果 证 明 ， 该 方案 能 提供 2Gbps 的 处 理 
Jung-Sik Sung) 等 人 改进 了 TCAM 查找 算法 , 他 们 的 方案 可 以 提供 


但 是 TCAM 方案 也 有 成 本 高 、 功 耗 高 、 存 


牛 字 符 串 匹配 加 速 方 


于 对 最 长 前 


案 。 


余 芳 ( 音 


完全 并 行 方案 只 获得 了 29Mbps 的 吞吐 量 和 42% 的 缓存 命中 率 。 


1 系统 , 许多 人 提出 基于 硬件 字符 串 匹 配 
级 匹配 (Longest 
译 


| 


Yu Fang) 


译 


守 ， 


长 的 要 求 口 ]。 

网 络 处 理 器 (Network Processor) 也 是 一 种 受到 广泛 关注 的 用 于 实现 高 性 能 网 络 入侵 检 
测 系 统 的 平台 。 姜 锡 卜 (音译 ， Seok-Min Kang) 等 人 实现 了 一 种 基于 网 络 处 理 器 平台 使 用 
TCAM 硬件 技术 的 一 个 蠕虫 病毒 防御 系统 。 该 系统 能 够 运行 在 10Gbps 高 速 链 路 上 5 。 但 是 
使 用 网 络 处 理 器 会 使 得 编程 难度 增 大 , 使 用 网 络 处 理 器 的 解决 方案 通常 只 适合 靠近 网 络 协议 
栈 的 底层 的 数据 包 处 理 , 复杂 的 第 四 到 第 七 层 的 业务 处 理 往往 会 带 来 频繁 的 内 存 访问 ， 此 时 
使 用 网 络 处 理 器 并 不 合适 。 


3 pSnort 架构 


3.1 Snort 处 理 流程 


而 


1 是 一 个 典型 的 Snort 数据 包 处 理 流程 框 


图 1. Snort 处 理 


流程 


1 Ternary Content Addressable Memory 三 态 内 容 可 寻 址 存储 器 
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图 。 其 他 的 网 络 入 侵 检 测 系 统 也 


tk 有 类 似 的 


pSnort: 基于 多 核 处 理 器 的 并 行 入 侵 检 测 系统 
流程 。 图 中 ，Snort 数据 包 处 理 可 以 分 为 解码 、 预 处 理 、 规 则 分 析 、 输 出 四 个 部 分 组 成 。 其 
FP 预 处 理 过 程 除 包 含 分 片 重组 、 流 记录 管 
理 、 流 重 组 等 功 能 之 外 ， 还 包 含 如 端口 扫 zt HU 米 0 米 
获取 数据 包 获取 数据 包 
、HTTP2 协 议 分 析 等 功能 。 对 于 后 端的 EE I 


jj o 
规则 检测 模块 来 说 ， 分 片 重组 和 流 管理 功 
能 是 必要 的 ,其 他 功能 则 是 可 选 的 ,在 Snort 


代码 内 部 , 分 片 重组 功能 主要 由 Frag3 模块 车 pr = 
预 处 理 ---| 流 记 录 = 预 处 理 
实现 ， 而 流 记 隶 管理， 包括 沉重 组 等 功能 | [生理 "| 演 记 如 上 | 再 


实现 ， 而 流 5 流 


主要 由 Stream5 模块 实现 。 整 个 预 处 理 阶 | 规则 匹配 | [| : | 规则 匹配 | 
中 ~- 则 横 --| 规则 匹配 
费 块 占用 了 绝 大 多 数 ， ‘ 


i 


段 ，Frag3 和 Stream5 模块 
的 处 理 时 间 。 


采用 RTC 模型 对 Snort 进行 并 行 化 设 
计时 ， 需 要 尽量 地 降低 由 多 线程 所 带 来 的 
同步 / 互 斥 开销 。 这 些 同步 开销 一 般 是 由 对 
共享 数据 的 访问 带 来 的 。 图 2 是 RTC 模型 并 行 化 Snort 的 一 种 架构 设计 。 从 图 中 可 以 看 出 ， 
流 记 录 的 共享 访问 所 带 来 的 同步 开销 是 很 难 避免 的 。 当 然 , 每 个 线程 采用 单独 的 流 表 的 策略 
是 可 以 避免 这 一 开销 的 ， 但 是 这 样 一 来 ， 相 关联 的 不 同 流 可 能 被 分 配 到 不 同 的 线程 上 处 理 ， 
针对 不 同 流 进行 的 跨 流 检测 便 很 难 进行 。 


采用 软件 流水 线 模型 对 Snort 进行 并 行 化 设计 时 ， 则 需要 避免 将 Snort 各 阶段 划分 得 过 
于 当前 通用 CPU 大 多 不 支持 硬件 线程 迁移 和 快速 的 核 间 通信 ， 采 用 软件 流水 线 模型 
的 并 行 条 & 构 往往 会 带 来 很 大 的 消息 传递 开销 ， 从 而 影响 最 终 性 能 


3.2 pSnort 架构 设计 


图 2.RTC 并 行 化 Snort 


纪 


Packet 
缓冲 区 


规则 匹配 


: [给 由 : 
协议 处 理 线程 : | 规则 匹配 线程 j 


图 3. 并行 Snort 架构 pSnort 


根据 图 1 所 示 ， 我 们 可 以 将 Snort 数据 处 理 流程 划分 成 两 大 阶段 :(1) 协议 处 理 阶 段 ; 
(2) 规则 匹配 阶段 。 在 协议 处 理 阶段 ，Snort 关心 的 是 数据 包 的 协议 头 所 携带 的 信息 ， 如 解 


2 HyperText Transfer Protocol， 超 文本 传输 协议 
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码 阶段 Snort 完成 的 主要 任务 在 于 计算 出 数据 包 各 层 协 议 头 在 数据 包 中 的 位 置 ， 并 保存 下 来 
为 下 阶段 使 用 。 在 规则 匹配 阶段 ，Snort 关心 的 是 数据 包 的 负载 。 该 阶段 的 主要 任务 在 于 依 
据 规则 数据 库 搜索 数据 包 人 负载， 判断 该 数据 包 是 否 可 能 携带 各 种 攻击 信息 。 


实验 数据 显示 ， 在 一 台 配 有 Intel Xeon E5420 CPU、8G DDR2 667 内 存 的 服务 器 上 ， 协 
议 处 理 阶 段 的 处 理 时 延 为 3us， 规 则 匹配 阶段 的 处 理 时 延 为 21ns2% 占 处 理 时 间 的 87.5%， 
为 其 中 包含 耗 时 的 字符 串 匹 配 操作 。 很 明显 ， 规 则 匹配 是 整个 Snort 处 理 流 程 的 瓶颈 所 在 。 
因此 ， 使 用 多 个 线程 并 行 完 成 这 一 阶段 任务 ， 可 以 期 望 得 到 性 能 的 提升 。 


根据 上 文 的 分 析 ， 我 们 提出 了 基于 软件 流水 的 并 行 Snort 架构 pSnort， 如 图 3 所 示 。 整 
个 数据 包 处 理由 一 个 协议 处 理 线程 和 多 个 规则 匹配 线程 协作 完成 。 由 于 协议 处 理 线 程 具 有 一 
个 ,因此 对 于 流 记 录 的 数据 访问 是 不 需要 加 锁 的 ， 这 样 就 避免 了 多 线程 同时 访问 流 记 录 所 带 
来 的 互 斥 开 销 。 而 对 于 在 规则 匹配 阶段 需要 多 线程 同时 访问 的 规则 数据 库 , 因为 所 有 的 规则 
匹配 操作 对 规则 数据 库 只 会 进行 读 操作 ， 所 以 规则 匹配 部 分 也 是 不 需要 加 锁 的 。 这 样 ， 我 们 
就 从 架构 设计 上 避免 了 多 线程 可 能 带 来 的 严重 同步 / 互 斥 开销 。 


尽管 规则 匹配 是 逐 包 进行 的 ， 但 是 本 文 提出 的 架构 应 用 于 Snort 时 仍 不 能 使 用 基于 包 3 
行 的 策略 。 因 为 Snort 规则 描述 语言 中 提供 了 flowbit 关键 字 , 该 关键 字 必须 在 属于 同一 个 流 
的 包 按 序 经 过 同一 个 规则 匹配 线程 的 情况 下 才能 正常 工作 ， 和 否则 可 能 有 部 分 攻击 会 被 漏 掉 。 
因此 我 们 使 用 微型 解码 模块 在 协议 处 理 模 块 之 前 , 对 数据 包 进行 则 在 获得 四 元 组 的 少量 解码 
工作 ， 以 保证 属于 相同 的 流 的 包 会 按 序 经 过 同一 个 规则 匹配 模块 。 


Snort 数据 包 处 理 代码 使 用 了 一 个 全 局 结构 体 Packet。 每 个 数据 包 对 应 一 个 Packet 结构 
体 。 由 于 Snort 是 逐 包 处 理 的 ， 因 此 在 整个 处 理 流程 中 ， 只 需要 一 个 Packet 实例 即 可 。 而 在 
pSnort 系统 中 , 由 于 每 个 线程 只 完成 全 部 处 理 流程 的 一 部 分 , 当 线 程 处 理 完 某 一 个 数据 包 时 ， 
它 会 立刻 去 处 理 下 一 个 数据 包 。 这 意味 着 在 任意 时 刻 ， 整 个 pSnort 系统 中 会 存在 多 个 数据 
包 被 处 理 。 因 此 需要 一 个 Packet 结构 体 的 缓存 池 缓 存 多 个 Packet 实例 。 


以 下 是 pSnort 从 网 络 接 口上 获取 一 个 数据 包 之 后 的 处 理 流程 : 


1. 从 缓冲 池 中 获取 一 个 Packet 实例 。 进 行 协议 处 理 。 这 阶段 会 给 Packet 结构 体 中 各 
C= 域 赋予 对 应 的 地 址 值 ; 
© 2. 通过 分 发 模块 将 Packet 实例 放置 到 它 所 对 应 消息 传递 队列 上 ; 

3. 规则 匹配 线程 则 从 各 自 对 应 的 消息 队列 上 取出 Packet 实例 进行 规则 匹配 。 当 匹配 
工作 完成 时 ，Packet 实例 会 被 放 回 到 Packet 缓存 池 中 。 


在 协议 处 理 阶 段 和 规则 匹配 阶段 都 可 能 产生 报警 , 因此 , 这 些 线程 中 都 必须 有 一 个 输出 
模块 。 
3.3 数据 结构 设计 
3.3.1 Packet 缓存 池 

Packet 缓存 池 在 处 理 的 两 个 阶段 都 需要 使 用 到 ,因此 对 该 数据 结构 需要 使 用 锁 保 护 。 但 
是 我 们 可 以 通过 使 用 每 个 规则 匹配 线程 对 应 一 个 Packet 缓存 池 的 方法 缩小 冲突 域 ， 从 而 降 
低 锁 争 用 出 现 的 几率 。 由 于 每 个 规则 匹配 都 有 自己 的 Packet 绥 存 池 ， 属 于 同一 个 流 的 数据 
包 又 必须 在 同一 个 规则 匹配 线程 上 处 理 ， 在 获取 Packet 实例 前 必须 获得 数据 包 的 流 信 息 。 


加 
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Packet 绥 冲 区 。 


Packet 绥 冲 池 使 用 一 个 
先 分 配 好 的 Packet 实例 ， 使 
成 Packet 实例 分 配 和 放 回 的 操作 。 其 伪 代 码 


如 图 4。 
3.3.2 消息 传递 队列 


每 个 规则 匹配 线程 都 包含 一 个 消息 传递 队列 , 这 样 一 来 , 协议 处 


县 选择 相应 


指针 数组 存储 


用 一 个 索引 值 


之 间 构 成 了 一 个 “ 单 生产 者 - 单 消费 
县 传递 队列 。 
由 于 消息 队列 是 


无 锁 循 环 队列 实现 的 ， 


的 indext+t++;? 
return p; 


FF 多核 处 理 器 的 并 行 入 侵 检测 系统 
如 图 3 所 示 ， 在 向 Packet 缓存 池 获 取 Packet 
实例 之 前 ， 系 统 会 对 数据 包 进 行 微 型 解码 ， 

获取 流 信息 ， 并 根据 流 信 


Process Get-Packet 
p=array Packet [lindex]; 


Process Put-Packet(packet) 
ijndex--; 


预 
We 


p/m 


array Packet[index]=packet; 


图 4. Packet 缓存 伪 代 人 码 


里 线程 和 规则 匹配 线程 


”关系 。 此 时 我 们 可 以 使 用 无 锁 的 循环 队列 来 实现 消 


因此 其 队列 长 度 需要 预先 设 定 。 消息 队列 的 合 


适 长 度 取 决 于 网 络 流量 的 突 发 情况 ， 这 是 很 难 预先 估计 的 。 在 本 设计 中 ， 取 值 1024 进行 实 
验 。 当 消息 队列 满 ， 线 程 会 不 断 重 试 ， 直 至 队列 中 有 空闲 的 位 置 可 以 继续 传递 为 止 。 


4 ”全 局 变量 与 数据 依赖 
并 行 化 Snort 需要 解决 两 个 问题 : 


- 全 局 变量 私有 化 问题 。 


测 的 正确 进行 ; 
- 数据 依赖 问题 。 


第 一 个 问题 使 用 GCC 一 个 扩展 属性 _thread 可 以 


数据 依赖 问题 是 指 | 


经 历 一 段 排 队 延 迟 。 此 时 , 规则 


不 一 致 的 。 例 如 ， 


当 一 个 TCP 流 ! 


一 SN 


即 需 要 将 茶 些 全 局 变量 变 成 线程 入 有 的 ， 以 保证 噶 常 流量 检 


民 容 易 解 决 。 

于 消息 传递 队列 ,数据 包 在 经 过 协议 处 理 之 后 , 规则 匹配 之 前 需要 
匹配 阶段 所 需要 使 用 到 的 协议 处 理 阶 段 的 数据 和 信息 可 能 是 

最 后 一 个 FIN 包 经 过 协议 处 理 阶段 后 ， 该 流 所 对 应 的 流 


记录 会 被 删除 ， 但 是 此 时 该 流 可 能 会 有 一 些 包 在 消息 传递 队列 中 尚未 被 规则 匹配 阶段 所 处 


乱 。 


理 。 当 规则 匹配 阶段 处 理 这 些 


包 时 ， 将 无 法 找到 这 些 包 所 对 应 的 流 记 录 ， 导 致 处 理 罗 辑 的 混 


数据 依赖 问题 可 以 划分 为 两 个 子 问题 : (1) 当 后 端 处 理 阶段 需要 使 用 前 端 处 理 阶段 的 信 


县 时 ， 该 信息 已 经 被 更 新 ; 〈2) 当 后 端 处 到 


阶段 需要 使 


前 端 处 理 阶 段 的 信息 时 ， 该 信息 已 


经 被 删除 。 如 果 阶 段 划分 可 以 做 到 完全 的 数据 隔离 , 即 不 同 的 处 理 阶 段 需 要 的 是 不 同 的 数据 
信息 ， 则 数据 依赖 问题 即 可 人 避免。 遗憾 的 是 ，Snort 并 不 符合 这 


数据 处 理 时 ,前 后 两 个 处 到 


避免 。 


如 果 存 在 子 问 题 (1)， 则 协议 处 到 


3 GCC 是 GNU 的 C 和 C++ 编译 器 ， 是 Linux 中 最 重要 的 软件 


阶段 处 理 速度 不 可 能 始终 保持 一 致 ， 


开发 工具 


个 条 件 。 此 外 ， 在 实际 网 络 


因此 数据 依赖 问题 无 法 完 


阶段 必须 把 每 个 包 所 对 应 的 流 状态 信息 记录 下 来 ， 以 


，GNU 是 免费 Unix 风格 编译 器 
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备 后 端 处 理 阶段 查询 。 这 将 会 消耗 巨大 的 内 存 空间 。 如 果 只 是 存在 子 问题 (2)， 则 协议 处 理 


阶段 上 只 需 要 保存 流 记录 直到 可 以 确切 删除 的 时 候 删除 即 可 。 桩 运 的 是 ，Snort 处 理 本 身 不 存 


在 子 问题 (1)。 因 此 我 们 采用 了 以 下 方法 解决 子 问 题 (2): 


一 给 每 个 流 记录 做 引用 计数 ， 每 当 协 议 处 理 流程 将 数据 包 放 入 消息 传递 队列 时 ， 该 数 
据 包 对 应 的 流 记录 引用 计数 加 一 ， 每 当 规则 匹配 处 理 流程 结束 ， 该 流 记录 引用 计数 


减 一 。 对 引用 计数 的 操作 必须 是 原子 的 ; 


一 当 协 议 处 理 流 程 需要 删除 流 记 录 时 ， 标 记 流 记录 的 状态 ， 同 时 将 流 记 录 从 流 表 中 取 


出 ， 放 入 到 一 个 删除 链表 中 。 该 链表 对 于 协议 处 理 线程 是 不 可 见 的 ， 这 样 ， 该 流 记 


录 不 会 影响 到 协议 处 理 线程 的 正常 处 理 ， 同 时 规则 匹配 线程 也 能 够 安全 地 访问 到 他 
所 需要 的 流 记录 。 当 某 一 个 流 记录 被 标记 为 删除 ， 同 时 它 的 引用 计数 为 零 ， 则 可 以 
安全 地 将 该 流 记录 从 删除 链表 中 删除 。 


5 ”实验 验证 和 性 能 分 析 


5.1 实验 平台 


表 1 实验 环境 的 硬件 参数 


实验 平台 也 牛 参 老 给 出 。 5 
实验 平台 的 硬件 参数 由 表 1 给 出 硬件 名 称 规格 说 明 
我 们 设计 了 一 块 硬 件 加 速 卡 作为 网 络 接口 CPU 2 路 4 核 ， 共 8 核 ; 


直接 内 存 映 射 ， Intel Xeon E5420 每 核 一 级 缓存 32K: 


应 用 于 pSnort。 该 网 卡 使 月 


(Direct Memory Access) 能 够 将 数据 包 直 接 提 


16K( 指 令 )+ 16K 〈 数 
据 ); 四 核 两 两 共享 二 


供给 程序 。 利 用 这 块 硬件 加 速 卡 ， 可 以 显著 降 | 

低 数据 包 捕 获 所 带 来 的 内 存 找 贝 、CPU 中 断 以 内 存 DDR2 667 

及 用 户 /内 核 上 下 文 切换 所 带 来 的 开销 , 将 CPU 总 共 8GB 

彻底 从 数据 包 捕获 中 解放 出 来 , 提高 系统 性 能 。 网 络 接口 。 ”提供 DMA 功能 尽 

该 卡 配 有 4 个 千 兆 端口 ,能 同时 处 理 最 高 4Gbps ”人 便 件 加 速 上 
口 ， 能 同时 处 理 最 高 4Gbps 的 流量 ， 使 用 其 中 一 个 端口 进行 实验 。 测 试 数据 包 文 件 从 某 研 


究 所 出 口 网 络 GE 链 路 捕获 。 


表 2 显示 了 三 个 数据 包 文件 的 参数 。 


同时 ， 通 过 tcpreplay 在 另 一 台 服 务 器 上 发 ” 表 2 试验 数据 包 文件 的 参数 
送 数 据 包 文件 来 模拟 外 部 网 络 环境 。 实 验 中 使 用 ”数据 包 ”平均 包 大 小 


tcpreplay 的 -t 参数 获取 发 送 数据 包 的 最 高 速率 ,在 。 文件 。 ( 字 节 ) 大 小 “GB) 
当前 平台 下 ，tcpreplay 能 获得 的 最 高 发 送 速 率 为 ” Tracel 662 1.4 
918.18Mbps。 Trace2 645 3.1 

实验 共 选 取 了 三 个 规则 集 ， 规 则 集 1 包含 了 Hace3 671 SE 


2217 条 规划， 规则 集 2 包含 了 2730 条 规则 ， 规 则 集 3 包含 了 3258 条 规则 。 


5.2 性 能 指标 定义 


实验 中 使 用 的 性 能 指标 为 大 吐 量 和 加 速 比 。 定 义 当 有 i 个 规则 匹配 线程 开启 时 ， 工 为 


pSnort 春 吐 量 (Mbps)， 卫 为 


pSnort 处 理 的 包 数 目 。P, 表示 数据 包 文件 中 数据 包 的 个 数 ， 


to 


S 表示 tcpreplay 发 送 速率 〈Mbps)。 香 吐 量 由 以 下 公式 得 出 : 
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T (Mbps) = 


x S(Mpbs) (1) 


total 


定义 A 为 i 个 规则 匹配 线程 时 的 加 速 比 ， 加 速 比 由 以 下 公式 得 出 : 


_T (Mpbs) 
" 全 (Mpbs) (2) 
5.3 实验 结果 与 分 析 
1000 30 
国 踪迹 1 
800 2.5 | 一 | 踪迹 2 
万 踪迹 3 
CY 2.0 : 
S600 六 本 
只 15 
考 
如 400 
履 1.0 
200 0.5 
0 1 2 3 4 5 6 7 
线程 数 3 线程 数 
图 5. 规则 集 2 吞吐 量 图 6. 使 用 规则 集 2 时 的 加 速 比 


图 5 显示 的 是 使 用 规则 集 2 情况 下 ，pSnort 吞吐 量 和 线程 数目 之 间 的 关系 。 线 程 数 为 0 
表示 的 是 使 用 原始 Snort 所 达到 的 吞吐 量 。 从 图 中 看 出 ， 当 线程 数 为 1 时 ， 由 于 pSnort 与 
Snort 相 比 , 引入 了 锁 开 销 , 最 终 性 能 比 原始 的 Snort 要 差 。 但 是 随 着 线程 数目 的 增长 , pSnort 
的 吞吐 量 也 在 增 大 。 当 线程 数 为 7 时 ，pSnort 可 以 完全 处 理 Tracel 和 Trace2 中 的 所 有 流量 ， 
达到 当前 平台 下 的 最 高 吞吐 率 。 
图 6 显示 对 应 的 加 速 比 。 
在 三 个 不 同 数据 包 文件 下 ， 采 用 规则 集 2 的 pSnort 相对 于 原始 Snort 分 别 获 得 99%、 
107%、88% 的 性 能 提升 。 
在 图 中 加 速 比 没有 线性 增长 , 原因 是 我 们 的 架构 只 并 行 了 全 部 处 理 流程 的 一 个 部 分 。 在 
各 个 线程 的 单 包 处 理 时 延 相 等 的 情况 下 ， 加 速 比 可 以 按照 以 下 公式 进行 计算 。 

D, + D, 
YS D (3) 


R 
Do 


其 中 D, 表示 协议 处 理 阶段 的 单 包 处 理 时 延 ，D; 表示 规则 匹配 阶段 的 单 包 处 理 时 延 。 
根据 [14]， 令 D, =3，D =21， 可 以 得 出 理想 加 速 比 曲线 。 
图 可 见 ， 当 i=7 时 ，pSnort 的 实际 加 速 比 与 理想 加 速 比 相差 1.5 左右 。 这 主要 由 以 下 
三 个 方面 的 原因 造成 : 
第 一 ， ”实际 情况 下 流量 不 均衡 pSnort 使 用 的 分 流 哈 希 算法 不 能 保证 分 配 到 各 个 线程 
上 的 流量 均衡 。 
第 二 ， ”实际 上 ,线程 数 增多 时 ，pSnort 前 后 两 阶段 的 处 理 时 延 会 慢 慢 增加 ， 这 进一步 
减缓 了 加 速 比 。 


一 
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第 三 ， 


于 匹配 规则 的 特异 性 , 少量 的 流 会 
有 大 量 的 匹配 规则 对 应 (如 80 端口 的 HTTP 


程 的 处 理 时 延 是 不 相等 的 。 


根据 公式 (3)， 当 D,，> Da /t 时 ， 协 议 处 理 阶 
段 成 为 主要 的 性 能 瓶颈 ,此 时 ， 增 大 线程 数 不 会 带 
来 显著 的 性 能 提升 。 令 D, =3，D， =21， 那 么 当 
i>7 时 ， 协 议 处 理 阶段 会 称 为 性 能 瓶颈 ， 增 大 线程 数 并 不 会 带 来 显著 的 性 能 提升 。 


流量 )。 即 使 各 个 线程 处 理 的 流量 是 均衡 的 ， 
如 果 某 个 线程 被 分 配 到 一 个 对 应 大 量 匹 配 规 
则 的 流 ， 它 的 处 理 时 延 将 增 大 ， 这 导致 各 个 线 
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线程 数 


图 7. 理 想 和 实际 加 速 比 对 比 


此 ， 我 们 可 以 通过 改善 均衡 来 提升 pSnort 的 性 能 。 


1000 
国 规则 集 1 

800 BE 下 规则 集 2 
规则 集 3 

名 

S600 

三 

志 400| 

性 : 

200| 量 

oA 四 AA 

0 1 


3 4 
线程 数 
图 8. 三 个 规则 集 吞 吐 量 
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图 9. 规则 集 加 速 比 


图 8 显示 不 同 规则 集 情况 下 ,使 用 Trace2 时 ， 线 程 数 和 吞吐 量 之 间 的 关系 。 线 程 数 为 0 


表示 原始 Snort 获得 的 吞吐 量 。 由 于 规则 集 3 包含 规则 数 比 另 两 个 规则 集 多 ， 因 此 吞吐 量 有 
所 下 降 。 男 外 两 个 规则 集 均 完全 处 理 了 Trace2 


图 9 显示 的 是 对 应 的 加 速 比 。 
表现 出 更 大 的 加 速 比 。 


中 的 所 有 数据 包 。 


可 以 看 见 | 


于 规则 数 较 多 ， 匹 配 工作 量 加 大 ， 规 则 集 3 


使 用 Trace 2, 采用 三 个 规则 集 的 pSnort 相对 于 原始 Snort 分 别 获得 115%、107%、147% 


的 性 能 提升 。 
6 ”结束语 


为 了 充分 利用 多 核 平台 所 提供 的 计算 能 


问 可 能 带 来 的 锁 争 用 开销 ， 同 时 保留 了 对 跨 流 检测 的 支持 。 实 验 订 


， 满 足 当前 在 高 速 链 路 下 进行 入 侵 检测 的 需 
求 ， 本 文 提出 了 一 种 基于 软件 流水 的 Snort 并 行 架构 pSnort。 本 架构 充分 考虑 到 由 于 多 线程 
可 能 带 来 的 同步 / 互 斥 问题 ， 采 用 软件 流水 的 方式 ， 从 架构 上 避免 了 流 记录 等 共享 数据 的 访 


E 明 ，pSnort 相对 于 原始 


Snort 最 高 可 获得 147% 的 性 能 提升 。 由 于 网 络 处 理 程 序 大 多 有 具有 相同 或 者 相似 的 处 理 流程 ， 


我 们 所 提出 的 架构 是 共有 较 高 的 通 月 


下 一 步 工作 包括 以 下 几 个 方面 : 


性 的 。 
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第 一 ， 本 架构 的 实现 只 考虑 了 Frag3 和 Stream5 两 个 预 处 理 器 ， 下 一 步 考 虑 将 其 他 预 处 
理 器 在 本 架构 下 实现 。 

第 二 ， 优 化 pSnort 的 均衡 算法 ， 使 pSnort 获得 更 高 的 加 速 比 。 

第 三 ， 找 出 pSnort 性 能 瓶 宽 ， 进 行 有 针对 性 的 优化 。 软 件 流 水 模型 由 于 会 传递 数据 而 


带 来 比较 大 的 核 间 通 信 开 销 。 当 前 的 CPU 架构 特别 是 缓存 系统 普遍 缺乏 对 核 间 通信 的 支持 。 
我 们 期 望 通 过 仔细 测量 和 分 析 pSnort 性 能 参数 ， 特 别 是 缓存 不 命中 的 影响 ， 来 确定 系统 性 


能 瓶颈 ， 提 出 方法 降低 传递 数据 量 来 获得 性 能 的 提升 。 


第 四 ， 


们 可 以 设计 出 新 的 硬件 加 速 


由 于 协议 处 理 阶段 大 多 是 访 存 操作 ， 计 算 量 较 小 ， 对 CPU 主 频 要 求 并 不 高 。 我 
FE， 将 协议 处 理 阶 段 移植 到 硬件 卡 上 自 带 的 CPU 中 。 这 样 能 进 


一 步 减轻 CPU 负载 ， 获 得 更 高 的 性 能 。 
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